Modul 5 von 15 · 📖 7 min Lesezeit · ⏱ 30 min gesamt
FI-DPA 05 Datenqualität messen und sichern
Inhaltsverzeichnis (6 Abschnitte)
FI-DPA 05 Datenqualität messen und sichern
Datenqualität ist das Fundament für zuverlässige Analysen und fundierte Entscheidungen in Unternehmen. In diesem Modul erlernen Sie die Methoden zur systematischen Bewertung und Sicherung von Datenqualität anhand zentraler Kriterien wie Vollständigkeit, Genauigkeit und Konsistenz. Sie erhalten praktische Kenntnisse im Datenprofiling und setzen das Great Expectations Framework ein, um Datenqualität automatisiert zu überwachen und sicherzustellen.
Konzepte und Hintergrund
- Completeness (Vollständigkeit)
- Beurteilt, ob alle erwarteten Daten vorhanden sind. Fehlende Werte können zu unvollständigen Analysen und verzerrten Ergebnissen führen.
- Accuracy (Genauigkeit)
- Prüft, ob den Daten korrekte und fehlerfreie Werte zugrunde liegen. Ungenaue Daten führen zu falschen Schlussfolgerungen und Entscheidungen.
- Consistency (Konsistenz)
- Stellt sicher, dass Daten über verschiedene Systeme oder Datensätze hinweg übereinstimmen. Inkonsistenzen können zu Duplikaten und widersprüchlichen Informationen führen.
- Datenprofiling
- Ein systematischer Prozess zur Untersuchung der Eigenschaften von Datenbeständen, um Struktur, Inhalt und Qualität zu verstehen.
- Great Expectations
- Ein Open-Source-Framework zur Erstellung, Validierung und Dokumentation von Datenqualitäts-Expectations, das die kontinuierliche Überwachung sicherstellt.
Architektur-Diagramm
flowchart LR
A[Datenquelle] --> B[Datenprofiling]
B --> C[Great Expectations]
C --> D[Erwartungsdefinitionen]
C --> E[Datenvalidierung]
E --> F[Qualitätsbericht]
F --> G[Automatisierte Aktionen]
Praktische Schritte
- Datenquellen identifizieren und dokumentieren. Dies bildet die Grundlage für alle weiteren Qualitätsanalysen.
- Datenprofiling mit Python-Bibliotheken durchführen, um statistische Kennzahlen, Verteilungen und Anomalien zu ermitteln.
- Great Expectations initialisieren und einen Datenkontext für Ihr Projekt einrichten.
- Erwartungen (Expectations) für Schlüsseldaten definieren, z.B. für Vollständigkeit, Datentypen oder Wertebereiche.
- Datenvalidierung durchführen und die Ergebnisse dokumentieren, um Abweichungen von den definierten Qualitätsstandards zu identifizieren.
- Automatisierte Workflows für die kontinuierliche Überwachung einrichten, um Datenqualität in Echtzeit sicherzustellen.
- Alert-Mechanismen für kritische Qualitätsabweichungen implementieren, um proaktiv eingreifen zu können.
import pandas as pd
df = pd.read_csv('datenquelle.csv')
print(df.describe())
print(df.isnull().sum())
great_expectations init
great_expectations datasource new
context.add_expectation(
expectation_suite_name="meine_erwartungen",
expectation_suite={
"expectations": [
{
"expectation_type": "expect_column_values_to_not_be_null",
"kwargs": {"column": "kunden_id"}
}
]
}
)
validation_result = context.validate(
datasource_name="meine_datenquelle",
suite_name="meine_erwartungen"
)
Häufige Fallstricke
Weiterführende Ressourcen
- Great Expectations Offizielle Dokumentation
- Tetrasearch Blog: Datenqualität mit Great Expectations
- Pandas Dokumentation für Datenprofiling
- The Data Quality Assessment Framework
- Great Expectations Tutorials auf GitHub
Wissens-Check
Vier Fragen zur Selbstkontrolle. Klicken Sie jede Frage an, um die richtige Antwort und Erklärung zu sehen.
Welche der folgenden Datenqualitätskriterien stellt sicher, dass Daten über verschiedene Systeme hinweg übereinstimmen?
- A) Vollständigkeit
- B) Konsistenz
- C) Genauigkeit
- D) Validität
Richtige Antwort: B. Konsistenz stellt sicher, dass Daten über verschiedene Systeme oder Datensätze hinweg übereinstimmen. Vollständigkeit bezieht sich auf das Vorhandensein aller erwarteten Daten, Genauigkeit auf die Richtigkeit der Werte, und Validität ist ein allgemeinerer Begriff für die Übereinstimmung mit festgelegten Regeln.
Welches Werkzeug wird im Modul als Open-Source-Framework zur Erstellung, Validierung und Dokumentation von Datenqualitäts-Expectations vorgestellt?
- A) Pandas
- B) NumPy
- C) Great Expectations
- D) SQLAlchemy
Richtige Antwort: C. Great Expectations ist das im Modul vorgestellte Framework zur automatisierten Überwachung der Datenqualität. Pandas und NumPy sind Bibliotheken für Datenmanipulation und numerische Berechnungen, und SQLAlchemy ist ein Toolkit für SQL-Datenbanken.
Welche Methode wird im Modul als systematischer Prozess zur Untersuchung der Eigenschaften von Datenbeständen beschrieben, um Struktur, Inhalt und Qualität zu verstehen?
- A) Datenbereinigung
- B) Datenprofiling
- C) Datenmodellierung
- D) Datenaggregation
Richtige Antwort: B. Datenprofiling ist der systematische Prozess zur Untersuchung der Eigenschaften von Datenbeständen. Datenbereinigung bezieht sich auf das Entfernen von Fehlern, Datenmodellierung auf die Strukturdefinition, und Datenaggregation auf das Zusammenfassen von Daten.
Welche der folgenden Python-Bibliotheken wird im Modul zur Durchführung von Datenprofiling mit statistischen Kennzahlen und Verteilungen empfohlen?
- A) TensorFlow
- B) Matplotlib
- C) Pandas
- D) Scikit-learn
Richtige Antwort: C. Pandas wird im Modul für Datenprofiling empfohlen, wie im Codebeispiel mit df.describe() und df.isnull().sum() gezeigt. TensorFlow ist für maschinelles Lernen, Matplotlib für Visualisierungen, und Scikit-learn für maschinelles Lernen und Datenmodellierung.